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摘 要 : 复杂 事件 处 理 是 一 种 动态 环境 下 对 事件 流 进 行 分 析 的 技术 。 复 杂事 件 处 理 技术 通常 基于 有 限 状 态 自动 机 实 
现 ， 匹 配 过程 中 会 在 事件 流 上 产生 大 量 且 重 营 的 部 分 匹配 ， 有 限 状态 自动 机 需 维护 大 量 的 重复 匹配 状态 ， 导 致 基于 
该 技术 的 方法 都 会 出 现 宛 余 计算 的 问题 。 为 了 提高 复杂 事件 处 理 的 匹配 效率 ， 提 出 了 使 用 复杂 事件 实例 禾 盖 技术 来 
实现 复杂 事件 处 理 的 方法 。 通 过 设计 临时 匹配 链 式 分 区 存储 结构 以 及 基于 此 结构 的 匹配 算法 ， 来 利用 复杂 事件 实例 
窗 盖 减少 宛 余 计算 ， 从 而 实现 匹配 效率 的 提升 。 在 模拟 数据 集 和 真实 数据 集 上 进行 了 实验 测试 与 分 析 ， 与 两 种 常用 
的 复杂 事件 处 理 技术 进行 比较 。 实 验 表 明 ， 提 出 的 方法 能 够 在 保证 匹配 正确 性 的 同时 有 效 地 减少 匹配 过 程 中 的 宛 余 
计算 ， 提 高 整体 匹配 效率 。 
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Abstract: Complex event processing is a technology for analyzing the event streams in a dynamic environment. Complex 
event processing technology is usually implemented based on finite state automaton. During the matching process, a large 
number of overlapping partial matches will be generated by the event stream. The finite state automaton needs to maintain a 
large number of repeated matching states, which leads to the problem of redundant calculation in the methods based on this 
technology. In order to improve the matching efficiency of complex event processing, this paper proposes a method of using 
complex event instance coverage technology to realize complex event processing. By designing a temporary matching chain 
partition storage structure and matching algorithms based on this structure, redundant calculations can be reduced using 
complex event instance coverage, thereby achieving an improvement in matching efficiency. Experiments are performed on 
simulated and real datasets, and compared with two commonly used complex event processing technologies. The experimental 
results show that the proposed method can effectively reduce the redundant computation in the matching process while 


ensuring the correctness of the matching, and improve the overall matching efficiency. 
Key words: complex event processing; query optimization; nondeterministic finite automaton; partition storage 


0 引言 限 状 态 自动 机 需 维 护 大 量 的 重复 匹配 状态 ， 导 致 基于 该 技术 
的 方法 都 会 出 现 元 余 计算 的 问题 。 尤 其 当 复 杂事 件 查询 的 时 
随 着 信息 社会 的 进一步 发 展 ， 越 来 越 多 的 行业 采用 复杂 间 窗 口 跨 度 大 时 ， 元 余 计算 将 会 给 处 里 器 和 存储 器 等 硬件 资 
事件 处 理 (complex event processing, CEP) 技 术 来 对 海量 的 事 源 带 来 巨大 的 额外 开销 。 
件 流 进行 实时 的 分 析 。 复 杂事 件 处 理 通 过 分 析 事 件 中 的 关系 ， 为 了 减少 基于 有 限 状态 自动 机 的 复杂 事件 处 理 技 术 中 的 
通过 关联 、 聚 合 、 过 滤 等 技术 ， 根 据 事件 间 的 时 序 关 系 和 聚合 ”元 余 计算 ， 提 高 匹配 效率 ， 本 文 利用 链 式 分 区 存储 的 结构 来 
关系 制定 查询 规则 ， 持 续 地 从 事件 流 中 获取 符合 要 求 的 事件 序 。” 管理 临时 匹配 ， 利 用 复杂 事件 实例 覆盖 来 减少 临时 匹配 的 宛 
列 。 该 技术 在 金融 交易 分 析 D3、 传 感 器 网 络 B、 物 联网 由 9 、 交 余 产 生 和 和 宛 余 拷贝 ， 从 而 提高 复杂 事件 匹配 的 效率 。 
通 中 领域 都 有 着 广泛 的 应 用 。 综 上 所 述 ， 本 文 的 主要 贡献 如 
前 ， 基 于 有 限 状 态 自动 机 (nondeterministic finite 1) 提出 了 复杂 事件 实 合 材 盖 的 概念 念 , 通过 复杂 事件 实例 
automaton, NFA) 的 处 理 模型 是 最 流行 的 复杂 事件 处 理 技术 实 履 盖 ， 可 以 建立 临时 匹配 之 间 7 基于 此 关系 来 减 
现 方式 , 例如 SASEE9、Cayugal010 和 Siddhill3。 通 过 NEFA 少 临 时 匹配 的 完 余 产生 和 和 宛 余 复制 。 
的 方式 来 实现 的 复杂 事件 处 理 技术 ， 在 事件 流 上 进行 匹配 的 2) 设计 了 一 个 临时 匹配 链 式 分 区 存储 结构 , 通过 该 结构 
过 程 中 都 会 产生 临时 匹配 ， 所 产生 的 临时 匹配 能 够 被 后 续 的 “避免 了 临时 匹配 的 集中 式 存储 及 使 用 ， 同 时 该 结构 也 作为 复 


曙 


1 


日 
事件 使 用 ， 并 且 生 成 新 的 临时 匹配 以 及 最 终 的 匹配 结果 。 所 ”杂事 件 实例 覆盖 的 载体 ， 构 建 了 临时 匹配 之 间 的 关联 。 
以 匹配 过 程 中 会 在 事件 流 上 产生 大 量 且 重 受 的 部 分 匹配 ， 有 3) 提出 了 基于 临时 匹配 链 式 分 区 存储 结构 的 复杂 事件 
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匹配 算法 CoverMatch 和 CombineMatch。 通 过 这 两 个 算法 ， 事件 ,但 是 ZStream 仍然 不 能 避免 大 量 的 未 处 理事 件 的 堆积 ， 


能 够 在 减少 临时 匹配 数量 和 复制 的 情况 下 保证 复杂 事件 处 理 ”这 和 NFA 产生 临时 匹配 的 堆积 本 质 上 是 一 样 的 。 
匹配 结果 的 正确 性 和 完整 性 。 基于 以 上 的 研究 可 以 发 现 , 无 论 是 基于 NFA 还 是 基于 树 

4) 通过 在 模拟 数据 集 和 真实 数据 集 上 对 优化 方法 的 性 ”的 方法 来 实现 复杂 事件 处 理 技术 ， 为 了 复杂 事件 匹配 结果 的 
能 进行 对 比 实 验 和 分 析 ， 验 证 了 所 提 方法 和 算法 的 有 效 性 和 “正确 性 和 完整 性 ， 都 需要 存储 至 少 一 个 时 间 窗 口 范围 内 的 临 
高 效 性 。 时 匹配 。 假 设 时 间 窗口 跨度 很 大 ， 复 杂事 件 的 处 理 将 对 处 理 

1 计 能 t 等 牛 资源 带 3 J MA 负荷。 
器 计算 能 力 和 存储 器 等 硬件 资源 都 带 来 了 不 小 的 负荷 
页 

复杂 事件 处 理 是 从 事件 驱动 业务 出 发 的 ， 将 系统 中 产生 2 ”预备 工作 
的 每 一 条 数据 记录 都 看 成 是 一 个 事件 ， 实 时 输入 的 数据 流 即 复杂 事件 处 理 是 一 种 面向 事件 流 的 查询 分 析 技术 ， 其 
为 实时 事件 流 ， 复 杂事 件 执行 引擎 会 根据 事先 制定 好 的 复杂 。“ 标 是 从 大 量 的 基本 事件 构成 的 事件 流 中 ， 找 出 满足 复杂 事件 


事件 描述 规则 ， 来 对 事件 流 进行 相应 的 判断 、 过 滤 、 关 联 等 ” ”描述 语义 的 更 高 层次 的 复杂 事件 。 本 章节 将 详细 介绍 复杂 事 


操作 ， 然 后 给 用 户 输出 一 系列 的 更 高 层次 的 复合 事件 。 其 中 ” 件 处 理 涉及 的 预备 知识 。 

复杂 事件 描述 规则 一 般 包含 用 户 感 兴趣 的 事件 语义 ， 或 者 是 定义 1 事件 流 。 事 件 流 S(s1,s2…swy) 由 一 系列 的 基本 事 

专业 领域 中 某 种 既定 的 标准 和 规范 。 也 就 是 说 ， 复 杂事 件 处 。”” 件 实例 构成 ， 其 中 s; 为 事件 实例 ， 它 包含 了 事件 的 类 型 、 事 

理 能 够 在 实时 事件 流 中 识别 某 一 个 人 为 定义 的 复合 事件 ， 个 的 属性 和 事件 发 生 时 的 时 间 戳 等 信息 。 

目 为 用 户 反 馈 识 别 的 结果 。 事件 流 往 往 是 由 多 个 数据 源 的 数据 构成 的 ， 在 使 用 海量 
目前 复杂 事件 处 理 技术 已 经 有 了 很 多 的 研究 成 果 ， 复 杂 ”数据 的 很 多 研究 应 用 领域 里 ， 例 如 气象 预测 08、 海 上 航行 09 


事件 处 理 技术 一 般 采 用 非 确定 性 有 限 状态 自动 机 的 变 体 模型 ”和 交通 数据 研究 pm， 数据 源 可 以 是 采集 设备 或 者 是 传感器 ， 
来 处 理 复杂 事件 的 识别 。 及 此 需要 先 对 数据 使 用 融合 技术 1 总 进行 融合 以 得 到 包含 
Diao 等 人 提出 的 SASE 是 一 种 复杂 事件 处 理 引 擎 ,同时 ”多 事件 类 型 的 事件 流 。 
还 提出 了 一 种 能 够 定义 复合 事件 的 事件 描述 语言 CELa.14， 图 1 展示 的 是 船只 在 航行 中 产生 事件 流 的 示例 。 其 中 事 
这 种 语言 具有 类 似 SQL 的 高 级 结构 ,可 定义 事件 序列 、 匹配 。 件 流 包含 了 4、B、C 三 种 事件 类 型 ，4 表示 低速 启动 ，B 表 
策略 、 事 件 约束 和 事件 窗口 约束 等 。 通 过 SASE 引擎 可 将 事 示 船 头 左 转 90”，C 表示 低速 停靠 。 每 个 事件 实例 都 包含 时 
件 描述 语言 所 定义 的 复合 事件 转变 为 非 确定 性 有 限 状态 自动 。” 间 蕉 以 及 属性 值 ， 此 处 使 用 相应 的 小 写 英文 字母 表示 事件 实 
机 ， 从 而 实现 在 事件 流 上 的 事件 获取 和 计算 。Diao 等 还 在 。 例 。 例 如，b 为 8 事件 类 型 的 第 一 个 事件 实例 ， 其 时 间 稚 为 
SASE+0na 中 对 SASE 进行 了 扩展 ， 引 入 了 对 克 林 闭 包 、 否 定 。 2， 此 外 还 包括 行驶 速度 、 行 驶 方向 以 及 倾斜 角度 等 属性 。 
和 聚合 操作 的 支持 。SASE/SASE+ 主 要 的 缺陷 在 于 ， 在 NFA 
进行 匹配 的 过 程 中 ， 需 要 产生 匹配 结果 的 临时 匹配 ， 同 时 为 事件 实例 G1 Pr bb bs by cr a 
了 保证 结果 的 准确 性 ， 不 允许 在 时 间 窗口 约束 内 将 临时 匹配 


时 间 戳 1 3 5 6 9 12 18 … 


丢弃 ， 这 种 机 制导 致 了 临时 匹配 的 堆积 ， 从 而 影响 了 自动 机 
的 处 理 效 率 。 图 1 事件 流 示意 图 
康 奈 尔 大 学 开发 的 Cayuga 也 采用 NFA 作为 计算 模型 来 Fig.1 An example of events stream 
处 理事 件 的 识别 ， 但 是 它 对 于 事件 的 描述 能 力 相 对 较 差 。 通过 观察 图 1 所 示 的 事件 流 可 以 得 知 , 在 时 间 窗 口 1~12 
Cayuga 支持 发 布 -订阅 技术 , 并 且 提 供 了 良好 的 可 扩展 性 , 此 内 ,船只 先是 低速 开始 启动 ,之 后 在 航行 过 程 中转 了 一 个 圈 ， 
外 还 运用 了 查询 优化 技术 ， 可 将 多 个 拥有 相同 时 间 惟 的 具有 ”最 后 低速 停靠 。 
等 价 状态 的 事件 一 同 进行 处 理 。 但 是 由 于 它 的 内 核 是 单线 程 复杂 事件 是 由 事件 流 S(s1,s3.…,sw) 上 的 若干 事件 实例 构 
的 ， 并 没有 有 效 地 从 这 些 优化 技术 中 获 益 。 成 的 一 个 复合 事件 ， 表 示 为 R(rirz..rm)， VieS,(0<isn) 。 
FlinkCEP09 在 设计 思想 上 和 SASE 很 接近 ， 同 样 使 用 事 复杂 事件 表示 在 事件 流 上 发 生 的 客观 存在 的 具体 事件 ， 其 语 
件 约束 作为 NFA 节点 状态 转变 的 条 件 。 从 事件 描述 语言 的 角 义 通 常 通 过 复杂 事件 描述 语言 所 定义 的 查询 来 进行 表示 。 
度 来 看 , FlinkCEP 与 SASE 的 一 个 最 大 的 区 别 是 FlinkCEP 没 定义 2 复杂 事件 查询 。 复 杂事 件 查 询 CO 是 由 一 组 定义 
有 支持 定义 复合 事件 的 语言 。 为 了 蔡 代 事件 描述 语言 ， 在 基本 事件 上 的 约束 条 件 构成 ， 用 以 定义 和 表示 更 高 层次 的 
FlinkCEP 需要 用 户 使 用 Java 或 者 Scala 编写 事件 描述 ， 这 种 复杂 事件 的 属性 特征 。 
定义 方式 可 读 性 差 且 编写 时 易 出 错 。 当前 的 研究 工作 中 己 提 出 多 种 形式 的 复杂 事件 描述 语言 


除了 基于 NFA 模型 实现 的 复杂 事件 处 理 技术 之 外 , 另外 用 以 定义 复杂 事件 查询 ， 其 中 SASE 提出 了 最 具有 代表 性 的 


种 使 用 树 来 作为 计算 模型 的 实现 复杂 事件 处 理 的 技术 也 得 杂事 件 描述 语言 。 其 具备 简洁 的 语法 规则 ， 灵 活 的 表达 能 
到 了 广泛 的 研究 和 应 用 。 力 ， 所 以 本 文 将 使 用 SASE 复杂 事件 描述 语言 来 定义 复杂 事 
Mei 等 人 提出 的 ZStreamt7 是 CEP 领域 基于 树 实现 复杂 ”” 件 查询 。SASE 事件 描述 语言 是 一 种 声明 式 语 言 ， 总 体 结 构 
事件 处 理 技术 的 典型 研究 成 果 。ZStream 的 事件 描述 语言 与 如 下 : 
SASE 非常 相似 , 所 遵循 的 语法 大 多 数 都 相同 。ZStream 将 事 PATTERN <sequence pattern> 
个 存储 在 叶子 节点 ， 内 部 节点 对 应 于 操作 符 。 在 进行 事件 流 [WHERE <qualification>] 
处 理 时 ， 它 不 会 立刻 判断 到 达 事 件 的 约束 条 件 ， 而 是 先 把 事 [AND <other qualifications>] 
个 进行 收集 到 一 定量 ， 进 而 对 其 进行 批 处 理 。 树 结构 和 批 处 0 
理 的 结合 允许 ZStream 根据 期 望 成 本 和 条 件 约束 来 执行 各 种 使 用 上 述 的 结构 可 以 编写 复杂 事件 查询 。 默 认 情 况 下 ， 


复杂 事件 处 理 任务 .例如 , 对 于 给 定 的 复杂 事件 序列 <4, 8B>， 查询 将 读 取 事件 流 中 实时 到 达 的 事件 ， 从 而 进行 复杂 事件 处 
SASE 将 会 为 每 一 个 出 现 的 4 事件 新 建 一 个 临时 匹配 ， 即 使 。” 理 ， 最 后 将 匹配 成 功 的 复杂 事件 反馈 给 用 户 。 
8 事件 的 出 现 概率 很 低 ， 而 ZStream 则 可 以 遵循 另 一 个 匹配 为 了 解释 SASE 事件 描述 语言 结构 的 含义 ， 现 在 使 用 一 
规则 ， 一 直 等 待 事件 的 到 达 ， 再 去 批量 检查 先前 到 达 的 4 ”个 基于 道路 交通 场景 构造 的 例子 来 说 明 。 在 这 个 例子 中 


hl 


= 
J+ 


| 
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点 的 位 置 ， 


Qi 


牛 类 型 TrafficInfo 为 道路 二 
报告 ， 一 个 报告 对 应 一 个 事件 实例 。 假 设 报告 内 容 
以 及 某 一 时 刻 的 车 流量 、 平 均 车 速 等 。 所 构造 的 
查询 如 2 所 示 。 
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也 点 所 收集 到 的 该 地 点 的 交通 数据 


含 该 地 


PATTERN SEQ(TrafficInfo a, TrafficInfo+ b[]) 


WHERE 
AND 
AND 
AND 
WITHIN 


上 述 查 询 定义 了 


1 hour 


后 者 


时 间 截 约束 为 


skip-till-any-match 

a.pos = tollA 

b.pos > a.pos + 5 miles 
blil.count > bli- 1].count 


一 个 复杂 事件 : 距离 A 收费 站 5 英里 远 
的 茶 地 点 ， 其 车 流量 在 1 小 时 的 时 间 范 转 
事件 之 间 的 默认 
blij.timestamp<b[it+1].timestamp 。 
其 中 PATTERN 剖 
结构 来 指定 两 个 事件 
类 型 都 是 TrafficInfo ， 
示 一 个 或 者 多 个 指定 类 


内 逐渐 增 大 ， 其 中 


a.timestamp<b.timestamp 、 


了 分 定义 了 复杂 事件 的 事件 序列 ， 使 用 SEQ 
F 类 型 构成 事件 序列 。 可 以 看 到 两 个 事件 


使 用 了 克 林 闭 包 ， 使 用 “+” 来 表 


型 的 事件 , 同时 需要 结合 “[]” 来 申明 。 


除了 定义 顺序 序列 和 闭 包 序列 , PATTERN 部 分 还 可 以 定义 否定 


操作 ， 只 需要 在 


E 事 件 类 型 前 面 


c) 表 示 在 a.timestamp<c.timestamp 的 条 件 下 , 4 类 型 的 事件 实例 
F 实 例 之 间 不 允许 出 现 B 类 型 的 事件 实例 。 
当前 查询 所 用 到 的 匹配 策略 ，skip- 
till-any-match 表示 将 在 事件 流 中 匹配 所 有 的 结果 ， 


和 C 类 型 的 事 伯 
WHERE 部 分 指定 了 


中 


加 上 “1!”， 例 如 SEOUd a, /Bb,C 


本 文 将 只 


讨论 该 策略 


Skip-till-any-match 策略 所 


的 复杂 事件 匹配 ， 其 他 策略 匹配 出 的 结果 都 是 
匹配 结果 的 子 集 , 故 不 做 另外 讨论 。 


AND 部 分 定义 了 事件 约束 ， 是 作为 WHERE 约束 的 延伸 。 


WITHIN 则 定义 了 时 间 窗 


度 限制 在 一 定 范围 内 。 


通过 以 上 事件 描述 语言 
查询 0, 将 通过 复杂 事件 处 理 


并 得 到 查询 结果 。 
3 ”查询 优化 技术 


口 约束 ， 


将 所 要 匹配 的 结果 事件 跨 


的 语法 规则 写成 的 一 个 复杂 事件 
引擎 在 事件 流 上 进行 查询 分 析 ， 


T 


本 章 将 对 本 文 提 昌 


介绍 。 


行 分 析 ， 通 过 设计 
及 查询 优化 算法 ， 来 优化 基 


的 复杂 事件 查询 优化 技术 进行 详细 的 
首先 对 于 基于 有 限 状 态 自 动机 的 复杂 事件 匹配 技术 进 
| 并 实现 一 个 临时 匹配 链 式 分 区 存储 结构 以 


n 


有 限 状态 自动 机 的 复杂 事件 匹 


配方 法 的 技术 ， 提 升 查询 匹配 的 效率 。 
3.1 基于 有 限 状态 自动 机 的 匹配 方法 
基于 有 限 状 态 自动 机 的 匹配 方式 是 目前 使 用 最 广泛 并 且 


有 效 的 复杂 事件 匹配 技术 。 


功 匹 配 结果 。 


个 查询 的 步 又 有 : (1) 将 查询 解析 为 
读 取 事件 流 ; (3) 进行 复 


本 节 通 过 构造 一 个 查询 02 及 其 匹配 过 程 来 详细 介绍 基 
于 有 限 状 态 自动 机 的 匹配 方法 。 


Q2 : 
PATTERN 
WHERE 
AND 
WITHIN 


杂事 件 


将 村 


7 
以 SASE 为 例 ， 处 理 一 个 复杂 事 
个 有 限 状 态 自 动机 ; (2) 
5 配 , 产生 临时 匹配 结果 或 成 


SEQ(A a, B+ bl[], Co) 
skip-till-any-match 
b[i].val >= b[i+1].val 
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结尾 。 将 02 以 文本 的 形式 作为 SASE 的 输入 ，22 经 过 编译 


后 ， 在 SASE 内 部 得 到 一 个 对 应 的 有 限 状态 自动 机 ， 如 图 2 
所 示 。 
ignore ignore ignore 
0 


take 


图 2 Q2 对 应 的 有 限 状 态 自 动机 
Fig.2 The NFA of Q2 

在 图 2 展示 的 有 限 状 态 自 动机 中 ，begin 表示 在 当前 状 
态 下 获取 一 个 符合 条 件 的 事件 实例 并 保存 ， 从 而 转移 到 下 一 
个 状态 。ignore 表示 当 遇 到 不 符合 条 件 的 事件 实例 ， 就 保持 
当前 状态 不 变 。take 和 proceed 是 闭 包 节 点 独 有 的 动作 ，take 
表示 获取 相同 类 型 并 且 符 合 条 件 的 事件 实例 ， 并 保持 当前 状 
态 。 而 proceed 可 以 将 NFA 从 闭 包 节点 状态 跳出 到 下 一 个 状 
态 , 并 且 take 和 proceed 动作 是 同时 发 生 的 。 也 就 是 说 在 2/z7 
节点 , 状态 机 的 状态 既 可 以 转换 为 c, 也 可 以 保持 /27 的 状态 
不 变 。 
在 SASE 中 是 通过 NFA 来 处 理事 件 流 的 , 例如 当 数 据 流 
中 来 了 一 个 4 事件 类 型 的 实例 ， 则 图 2 中 的 NFA 则 会 初始 
化 一 个 包含 该 实例 的 临时 匹配 ， 这 个 临时 匹配 会 一 直 存 在 ， 
直到 事件 流 当 前 的 时 间 戳 与 该 临时 匹配 的 时 间 跨 度 超过 了 碍 
询 的 时 间 窗 口 , 才 会 把 其 移 除 。 此 外 ， 当 NFA 在 该 临时 匹配 
的 基础 上 与 当前 事件 流 中 的 事件 能 够 发 生 状 态 变化 时 ， 将 会 
对 临时 匹配 进行 拷贝 ， 然 后 把 新 的 事件 添加 到 新 拷贝 的 临时 
匹配 上 ， 而 原来 的 临时 匹配 继续 保留 。 这 样 做 的 目的 为 的 是 
保留 NFA 的 上 一 个 状态 以 及 其 中 的 匹配 序列 。 
为 清晰 说 明基 于 有 限 状态 自动 机 的 匹配 过 程 , 假设 0; 在 
一 段 特定 事件 流 S(a,251,b2,b3,c1) 上 进行 查询 ， 事 件 流 5S 的 时 
间 惟 和 属性 值 如 图 3 所 示 。 


ET 


事件 实例 G1 D1 Bb b; ca 


时 间 蕉 1 3 5 6 9 
Va 0 6 7 9 1 


图 3 事件 流 S 示 意图 


Fig.3 The details of events stream S 
;在 S$ 上 的 匹配 过 程 ， 可 以 通过 图 4 来 展示 。 
8. 更 新 
临时 匹 
| 加 
(av py, bs, 
5. 更 新 pe 9. 临 时 
临时 匹 上 yj “验证 bs | | 匹配 拷 
/ 配 成 功 由 
1 验证 a | ,20 失 | sb/ [em] [em rod 
成 功 成 功 
匹配 4. 临 时 i 10. 更 新 
(av -) 人 一 | 匹配 拨 上 yj ”验证 b> | 临时 匹 
中 成 功 配 
(az -) (au -) (avbz -| … 
\ 11. 临 时 
匹配 拷 
贝 
(av -) |.… 


图 4 查询 Q2 在 事件 流 S 上 的 匹配 过 程 

Fig.4 The matching process of Q2 on the event stream S 
由 图 4 可知 ， 在 SASE 中 通过 有 限 状 态 自动 机 来 处 理事 
件 流 ， 当 aj 事件 到 达 时 ,验证 成 功 , 初始 化 一 个 包含 aj 事件 


;包含 了 一 个 B 事 件 类 型 的 克 林 闭 包 , 表示 匹配 一 个 或 


者 多 个 B 类 型 的 事件 实例 ， 
只 会 匹配 属性 值 val 递减 
事件 是 以 4 事件 类 型 的 事件 实例 开头 , 然后 是 B 事件 类 型 的 
val 递减 事件 实 


| 


例 序 列 ， 最 


的 B 


并 且 在 8 事件 的 约束 条 件 下 ，0; 
事件 序列 , 所 以 2 匹配 的 复杂 


实例 的 临时 匹配 (az, -), 该 临时 匹配 的 存在 表示 着 图 2 中 NFA 
的 “a” 节 点 状态 的 匹配 存在 。 当 bj 事件 实例 到 达 并 且 验 证 
成 功 后 ， 系 统 将 会 把 (am -) 备 份 ， 然 后 将 原 有 的 临时 匹配 进行 
更 新 , 更 新 为 (41,27,-)， 所 以 系统 中 出 现 了 两 个 临时 匹配 ,等 
到 下 一 个 到 达 的 事件 并 且 验 证 成 功 后 ， 就 需要 对 两 个 临时 匹 


忆 进 行 拷贝 和 更 新 ， 于 是 就 出 现 
通过 这 个 方法 显然 可 以 将 习 
晶 是 缺点 也 是 显而易见 也 


ie 所 以 随 着 


二 全 计 和 
| 基于 NFA 的 复杂 如 
导致 的 宛 余 计 算 ， 本 文 提出 


在 匹配 的 过 程 中 产生 了 很 


用 以 表示 临时 匹配 月 
匹配 的 进行 ， 最 
呈现 指数 增长 趋势 ， 系 统 的 计算 开销 


少 元 余 计算 从 而 提 


杂事 件 实例 覆盖 ”的 概念 ， 
区 存储 结构 和 基于 此 结构 的 匹 酉 
高 基于 NFA 的 复 
果 联 结算 法 CombineMatch 匹配 结果 的 


插件 实例 覆盖 。 当 
事件 实例 wy 同属 一 
证 成 功 且 作用 在 N 


si 是 si 的 一 个 


l 件 实例 窗 盖 。 


坏 的 情况 下 系统 中 的 临 


有 件 处 理 


pe ee 来 减 


个 对 


f 
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从 


实例 bj、 


事件 实例 


定义 4 复杂 事件 实例 覆盖 。 ne MiI . 
M7 来 说 , 如 果 Mi 中 的 每 一 个 事件 实 
事件 实例 或 是 M2 ee J 事 
一 个 复杂 事件 实 侦 


履 盖 是 可 传递 的 ， 
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匹配 链 式 分 区 存储 结构 示意 图 如 图 5 所 示 。 


start 
| a | | a; | 
| 
2 be | 


图 5 临时 匹配 链 式 分 区 存储 结构 


Fig.5 Temporary matching chain partition storage structure 
在 Q4 被 编译 成 NFA 之 后 , 存在 三 个 主要 状态 (状态 下 为 
终止 状态 ), 这 三 个 状态 将 分 别 产生 三 个 分 区 ,简称 为 4 分 区 、 


又 和 C 分 区 。 事 件 流 % 中 的 事件 实例 az 和 az 到 达 后 处 


履 盖 。 


D2?、 b3, 事件 类 型 


Ey NFA 验证 成 功 且 作用 在 同 


盖 ， b3 是 bs 的 事 


匹配 结果 是 


里 系统 之 后 ， 将 分 别 产生 临时 匹配 并 存储 在 4 分 区 ， 同 时 分 
别 打包 成 链表 节点 <ay> 和 <az>。 由 于 a2 是 a 的 事件 实例 履 
盖 ， ee 并 且 暴 露 给 下 一 

。 在 一 个 分 区 中 所 有 的 链表 都 仅 将 链表 尾 节 点 暴露 给 下 
一 人 分 区 . 当 事 件 实例 by 到 达 , 首先 会 在 上 一 个 4 分 区 中 寻 
暴露 节点 并 拷贝 下 来 ， 也 就 是 <az> 节 点 ， i 
为 <az, 5 谊 节点 ， 并 作为 链表 头 存 储 在 B 分 区 并 暴露 给 C 分 


例 履 盖 。 司 二， 复杂 事 
到 3 中 的 事件 流 上 ， 进 行 SEQ(4 a, B b, C c) 的 匹 
是 mi(az, bi, c4)、 m2(a1, by, 0 a b;, 


oo 按 照 定义 4，7102 是 1 | 


IV:202205.000 


实例 覆盖 ， 且 可 传递 ， 贝 


可 


洪 
时 下 


Po 能 够 应 用 复 


能 运用 在 匹配 距离 
村 事件 流 上 寻找 革 


了 几 k 灌 


下 


> 


Es 


让 匣 


SS 


覆盖 的 话 ， 在 出 现 连 续 的 相同 寻 


堆 


DJ 


— 


襄 | 
FF 
4 xb 
衬 
< 
| 
TT 


— 


更 快 的 效率 完成 匹配 任务 。 同 时 ， 相 对 于 
下 的 skip-till-any-match 利用 
本 文 提出 的 方法 可 
有 结果 联结 算法 ， 可 
效 并 且 不 产生 额外 闪 时 [匹配 ， 从 而 


名 时 匹配 链 式 分 区 存储 结构 

为 了 让 有 限 状 态 自动 机 支持 本 文 提 出 的 优 
元 余 计 算 的 目的 , 本 文 对 NFA 进行 了 增强 , 为 其 设计 了 一 
le es 


事 牛 流 Si | 


匹配 存储 方式 。 Oe te 上 面 
上 过 了 ， 每 次 新 的 事件 到 3 
历 验证 ， 这 将 严 习 


二 


区 存储 结构 ， 


i 消 直 计 算 资 源 。 


结构 则 借助 事件 实例 覆盖 和 复杂 习 
规避 了 集中 式 临 时 匹配 存储 也 

用 当前 存在 查询 Q@4: 
Sra1a20D1D203;D3c1c)。 为 了 简 
且 设置 其 时 间 窗 口 大 于 
上 进行 复杂 事 们 


tt 


SEQ( a a, Bb co 


-事件 流 Sr 的 时 间 范 围 。 当 
F 实 例 覆 盖 匹 配 时 ， 临 采 


区 。 随 后 事件 实例 bs 到 达 ，22 也 会 找到 4 分 区 的 暴露 节点 
， 会 产生 一 个 节点 <az pz?>， 由 于 <a?, bp 这 是 <a2, bj> 的 复 
:事件 实例 入 六 ， 所 以 <az pz> 会 成 为 <az,pj> 的 后 继 节点 ,并 
且 替 代 <az b 户 暴露 给 C 分 区 。 同 理 ， 当 事件 流 Si 中 的 事件 
到 达 并 被 处 理 之 后 ,最 终 会 得 到 3 个 复杂 事件 实例 覆盖 <az， 
bz, C2>、<az 05 CPP。、<a5 05 cz>。 该 匹配 过 程 见 算法 1。 

算法 1 基于 链 式 分 区 存储 结构 的 匹配 算法 CoverMatch 


: 事件 流 S。， 查 询 @。 
: 复杂 事件 实例 覆盖 集 Rs。 


eonull; 

b) Rso—O; 

nfacparse(Q); 

while (ece-Se.nextEvent()&&e!l=null) do 


if !nfa.verfy(e) do 
continue; 
tempMatchListe-buildTempMatch(e); 
checkTimeWindow( tempMatchList); 
if tempMatchList.isEmpty() do 
continue; 
regione—nfa.getRegion(e.eventType); 
for each tempMatch in tempMatchList do 
nodee—-getDominateMatch(tempMathch, 


region.getCandidates()); 


if node!=null do 
node .next = tempMatch; 
else 


region.setCandidate( tempMatch); 


r) for each r in nfa.getLastRegion().getCandidates do 


Rs.add(r.prev); 


t) return Rs; 


在 算法 1 中 , 第 g 行 的 buildTempMatch 方法 表示 了 使 用 


202205.00048v1 
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事件 e 在 上 一 个 分 区 中 遍历 暴露 的 匹配 节点 ， 将 能 够 进行 更 a) MO; 
新 的 节点 拷贝 ， 进 行 更 新 ， 然 后 再 进入 到 当前 分 区 进行 复杂 b) Liste0; 
事件 实例 覆盖 的 检查 ， 如 果 不 是 某 个 节点 的 复杂 事件 实例 履 c) while true do 
盖 ， 就 单独 成 链 (第 q 行 )， 否 则 成 为 某 个 链 的 链 尾 节点 (第 o d) List.add(R.getLastEvent()); 
行 )。 最 后 返回 最 终 的 复杂 事件 实例 覆盖 。 由 于 采用 的 数据 结 e) RR.prev; 
构 是 双向 环形 链 式 结构 ， 所 以 第 s 行使 用 prev 可 以 直接 定位 f) if R.isHead() do 
到 链 尾 节 点 从 而 得 到 最 终 复杂 事件 实例 覆盖 。 g) RgetprevBlockNode(R); 

现在 对 算法 1 的 时 间 复 杂 度 和 空间 复杂 度 进 行 分 析 。 若 h) break; 
系统 正在 对 事件 e 进行 处 理 ， 假 设 待 处 理 的 事件 流 5 中， 在 i) return MdoCombine(List, CombineMatch(R)); 
两 倍 的 时 间 窗 口内 单一 事件 类 型 的 实例 数量 最 多 为 K 个 ， 则 在 算法 2 第 g 行 的 方法 getPrevBlockNode 中 ,通过 传 入 
e 事件 所 属 分 区 中 的 链 式 结构 实例 数量 最 大 值 为 K, 设 事 件 e 链表 顶点 R， 能 够 获取 上 一 个 分 区 中 R 的 传递 节点 。 第 i 行 
在 所 属 分 区 中 产生 的 临时 匹配 数量 为 m， 由 于 临时 匹配 的 产 使 用 了 递归 的 形式 来 获取 最 终 的 联结 结果 ， 其 中 doCombine 
生 只 根据 上 一 个 分 区 中 每 一 个 链 结构 的 链 尾 节点 来 产生 的 ， 方法 进行 了 联结 操作 。 
所 以 m 的 最 大 值 也 为 玉 ， 则 处 理 e 事件 匹配 的 时 间 复 杂 度 为 现在 对 算法 2 的 时 间 复 杂 度 和 空间 复杂 度 进 行 分 析 。 假 
O(K?)， 算 法 1 的 时 间 复 杂 度 为 O(ISIK?)， 其 中 |S| 为 事件 流 S$ 。 设 当前 分 区 数 为 x， 假设 在 多 复杂 事件 查询 中 所 定义 的 最 长 
中 的 事件 个 数 。 由 于 在 事件 e 所 在 的 分 区 的 临时 匹配 链 式 结 的 复杂 事件 序列 长 度 为 N， 则 n 的 最 大 值 即 为 N， 且 通过 递 
为 中 ， 只 有 尾 节点 会 参与 构建 新 的 临时 匹配 节点 ， 因 此 通过 归 调 用 函数 次 数 最 多 为 N 次 , 若 每 个 分 区 中 与 复杂 事件 实例 
事件 e 得 到 新 的 临时 匹配 节点 的 空间 复杂 度 为 O(K?)。 履 盖 $ 关联 的 临时 匹配 链 平均 长 度 为 m， 则 算法 2 的 空间 复 

在 复杂 事件 处 理 中 ， 临 时 匹配 的 拷贝 处 理 需 要 使 用 深 # 杂 度 为 O(Nm)。 由 于 每 次 递归 函数 体 中 的 执行 操作 复杂 度 为 
贝 来 实现 。 完 成 一 次 临时 匹配 的 深 拷贝 需要 在 内 存 中 产生 一 OUD)， 因 此 算法 2 的 时 间 复 杂 度 为 O(Nim)。 
个 新 的 临时 匹配 实例 ， 并 且 将 原 临 时 匹配 实例 中 的 全 部 属性 利用 临时 匹配 链 上 的 节点 信息 进行 结果 联结 ， 可 在 算法 
值 以 及 实例 中 存在 的 引用 ， 复 制 到 新 的 临时 匹配 实例 中 。 传 1 的 基础 上 得 到 全 部 的 匹配 结果 。 联 结 过 程 中 无 须 进行 临时 


统 方法 中 临时 匹配 的 拷贝 是 在 遍历 所 有 临时 匹配 的 过 程 中 进 ”匹配 的 构建 和 拷贝 工作 ,并 不 会 增 大 系统 中 临时 匹配 的 规模 ， 
行 的 ,这 将 不 利于 为 复杂 事件 处 理 提供 良好 的 系统 吞吐 能 力 ， ”因此 节省 了 系统 的 内 存 开销 。 
系统 的 计算 开销 也 将 增 大 。 同 时 ， 所 有 临时 匹配 都 被 找 出 并 使 用 图 5 中 最 左 侧 的 链表 来 举例 ,首先 拿 到 C 分 区 的 节 
显 式 地 在 内 存 中 以 实例 的 形式 存在 ， 将 增加 内 存 的 开销 。 以 ”点 <a> bz, c>， 在 C 分 区 通过 获取 每 个 节点 的 最 后 一 个 事件 
查询 Oy 在 事件 流 % 上 进行 匹配 的 过 程 为 例 ， 使 用 基于 有 限 。 实例 从 而 得 到 [cj, cd]， 然 后 在 B 分 区 对 应 的 链表 获得 了 [bj, 
状态 自动 机 的 传统 匹配 方法 进行 匹配 ， 需 要 产生 24 个 临时 ” 妃 ]， 继而 在 4 分 区 获得 了 [ai, oj]， 通 过 递归 doCombine 方法 
匹配 以 及 21 次 临时 匹配 的 拷贝 ， 而 通过 临时 匹配 链 式 分 区 ”将 三 者 联结 ， 得 到 八 个 匹配 结果 (qj, bi, cD(az, bcaj(aj。 b2, 
存储 结构 以 及 上 述 匹 配 算 法 ， 只 产生 13 个 临时 匹配 以 及 10 ci)(az, bz, c2)(q2, Dj cI)(a2, Dj c2)(a2, b2, C7)(a2, b2, c?)， 同 理 ， 
次 临时 匹配 的 拷贝 。 临 时 匹配 的 数量 和 拷贝 次 数 以 及 遍历 操 ”使 用 C 分 区 的 另外 两 个 复杂 事件 实例 覆盖 也 能 得 到 其 对 应 的 
作 的 减少 将 提高 系统 的 吞吐 能 力 ， 并 减少 内 存 的 开销 。 所 有 匹配 , 最 终 通过 此 方式 得 到 所 有 的 匹配 结果 以 实现 skip- 
临时 匹配 链 式 分 区 存储 结构 是 基于 复杂 事件 实例 覆盖 的 。 will-any-match 策略 的 匹配 效果 ， 且 避免 了 大 量 临时 匹配 的 生 
概念 提出 的 。 借 助 分 区 存储 的 特点 ， 处 理 复杂 事件 时 并 不 需 。” 成 和 拷贝 。 
要 遍历 系统 中 所 有 的 临时 匹配 ， 在 实现 减少 临时 匹配 数量 和 4 实验 
找 贝 的 同时 ， 并 不 会 对 最 后 的 正确 匹配 结果 有 所 影响 。 
当 用 户 仅 需要 距离 当前 时 间 最 近 的 一 个 复杂 事件 实例 ， 本 章 通过 实验 对 比 来 对 本 文 提 出 的 基于 临时 匹配 链 式 分 
通过 指定 系统 保存 <a3, b3, cz>> 即 可 。 假 设 用 户 需要 的 是 像 ” 区 存储 结构 的 匹配 优化 方法 的 有 效 性 进行 了 分 析 和 验证 。 实 
skip-till-any-match 策略 那样 将 所 有 的 结果 全 部 匹配 出 来 ， 则 ”” 验 采 用 Java 实现 了 优化 方法 的 编写 。 本 章 将 从 多 个 维度 对 实 
需要 使 用 到 所 有 最 终 的 复杂 事件 实例 覆盖 ， 利 用 其 所 在 链表 上 ” 验 结果 进行 分 析 说 明 ， 并 通过 性 能 对 比 证 明 其 有 效 性 。 
的 其 他 节点 信息 来 进行 结果 联结 ， 从 而 得 到 所 有 的 匹配 结果 。 4.1 实验 设置 
3.2.2 匹配 结果 联结 本 文 在 两 个 数据 集 上 进行 了 实验 ， 其 中 第 一 个 数据 集 是 
本 文 进一步 地 完善 了 匹配 结果 的 生成 。 当 用 户 指 定 需要 ”通过 事件 流 生成 器 所 生成 的 模拟 数据 流 ， 第 二 个 数据 集 是 真 
获取 全 部 匹配 结果 时 ， 则 需要 使 用 算法 1 所 得 到 的 结果 来 进 ” 实数 据 集 。 
行 反 向 的 匹配 结果 联结 。 继 续 使 用 查询 4: SEQ(4 a, Bb,C 第 一 个 数据 集 是 ABC 类 型 事件 流 ， 该 数据 集 通 过 把 事 
c)， 以 及 事件 流 Sajaz2p17p2ai,bacnca) 来 举例 ， 在 图 5 所 示 。” 件 类 型 简写 为 大 写 英 文字 母 方式 来 定义 事件 的 类 型 。 其 中 每 
的 匹配 过 程 及 结果 中 ，9@y 的 查询 结果 是 <az bz, cz>、<az, bp3， ”个 事件 都 带 有 时 间 戳 以 及 各 自 的 属性 值 。 生 成 事件 流 之 前 可 


山 届 


c2>、<aj, b3, co>， 将 通过 该 结果 以 及 链 式 分 区 结构 来 得 到 全 ”在 事件 流 生成 器 中 自 定义 事件 类 型 的 数量 、 属 性 个 数 以 及 属 
部 的 匹配 结果 。 性 值 的 范围 ， 流 中 的 每 个 事件 都 是 随机 生成 的 。 实 验 中 该 数 
于 采用 的 是 双向 环形 链 式 结构 ， 可 以 从 最 底 端的 复杂 ” ” 据 集 包含 了 100000 个 原始 事件 。 
事件 实例 覆盖 出 发 ， 反 向 遍历 所 在 的 链表 。 通 过 收集 每 个 分 第 二 个 数据 集 包 含 了 车 辆 交通 数据 ， 该 数据 由 传感器 收 
区 的 该 链表 节点 的 最 后 一 个 事件 实例 ， 最 后 利用 递归 实现 各 集 ， 来 自 于 丹麦 奥 胡 斯 市 P33。 该 数据 集 是 通过 传感器 在 449 
个 分 区 事件 实例 的 联结 ， 该 过 程 如 算法 2 所 示 。 对 于 0z 来 “个 观测 点 位 收集 了 4 个 月 的 数据 而 得 到 的 ， 总 共 包 含 
说 ， 只 需要 将 <a?, bz, c 这 >、<q2, b3, c2>、<a3, b3, c2> 三 个 节点 13577132 个 原始 事件 。 每 个 事件 代表 一 个 观察 点 的 交通 情况 ， 
分 别传 入 到 算法 2 中 ， 就 能 得 到 2xy 所 有 的 匹配 结果 。 一 个 事件 的 属性 包括 ID 、 该 点 平均 车 速 以 及 过 去 $ 分 钟 内 观 
算法 2 ”匹配 结果 联结 算法 CombineMatch 察 到 的 车 辆 总 数 。 
输入 :复杂 事件 实例 覆盖 R。 本 文 优化 方法 将 与 目前 比较 流行 的 基于 有 限 状态 自动 机 
输出 : 所 有 匹配 结果 M。 的 SASE 方法 和 Siddhi 方法 进行 对 比 实验 。 其 中 本 文 提出 的 
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录用 定稿 邹 涛 ， 等: 面向 实时 事件 流 的 复杂 事件 处 理 方法 第 39 老 第 9 期 
基于 临时 匹配 链 式 分 区 存储 结构 的 匹配 优化 方法 记 为 如 图 8 和 9 所 示 ， 在 不 同 的 时 间 窗 口 下 ，LinkedCEP 的 
LinkedCEP， 实 验 在 Intel Core 2.60 GHz CPU i7 和 16G 内 存 ”处 理性 能 优 于 其 余 两 个 方法 。 例 如 图 8 的 实验 对 比 结果 中 ， 
的 Linux 系统 上 进行 。 当时 间 窗 口 为 200s 时 , LinkedCEP 的 处 理性 能 比 SASE 提升 
4.2 实验 分 析 了 34%， 比 Siddhi 提升 了 19%。 并 且 通 过 图 8 和 9 可 以 发 

首先 实验 比较 的 是 本 文 的 LinkedCEP 与 SASE、Siddhi ” 现 ， 随 着 时 间 窗 口 的 增 大 ，LinkedCEP 对 比 另 外 两 个 方法 的 
在 不 同 数据 集 上 的 匹配 性 能 和 临时 匹配 产生 的 数量 。 由 于 本 ”性 能 提升 更 大 ， 这 是 因为 时 间 窗 口 的 大 小 会 影响 临时 匹配 的 
文 提出 的 CoverMatch 算法 只 会 匹配 事件 流 中 的 复杂 事件 实 数量 ， 当 时间 窗 口 很 大 ， 扒 积 的 临时 匹配 就 多 ， 对 性 能 的 影 
例 履 盖 ， 并 不 会 产生 所 有 的 匹配 结果 ， 为 了 公平 地 进行 匹配 。” 响 也 越 大 
性 能 的 比较 ， 在 LinkedCEP 中 将 包含 匹配 结果 联结 算法 es 
CombineMatch 以 支持 产生 所 有 的 匹配 结果 。 ee 

于 两 个 数据 集 的 原始 事件 、 事 件 属性 存在 差异 ， 为 了 700] 

更 好 地 在 两 个 数据 集 上 执行 匹配 ， 针 对 两 个 数据 集 分 别 合 成 B00 
了 不 同 的 查询 ， 并 在 两 个 数据 集 上 分 别 使 用 LinkedCEP、 Ea 
SASE、Siddhi 来 执行 对 应 的 查询 。 以 下 将 设计 两 组 实验 进行 400 
对 比分 析 。 300] 

实验 一 : 对 两 个 数据 集 各 合成 了 5 组 查询 ， 每 组 查询 包 2001 
含 10 个 基本 复杂 事件 查询 ， 这 些 复杂 事件 查询 的 序列 长 度 50 100 150 200 250 
为 3， 由 于 时 间 窗 口 对 匹配 时 间 的 影响 很 大 ， 所 以 时 间 窗 口 Time Window/s 
统一 为 50s， 对 应 的 值 则 是 该 组 查询 的 平均 匹配 时 间 。 图 8 在 ABC 数据 集 上 时 间 窗 口 约束 的 大 小 对 性 能 影响 的 实验 对 比 


区 


到 6 与 7 所 展示 
上 匹配 性 能 的 对 比 结果 。 
情况 下 ， 无 论 在 人 在 


的 是 分 别 在 ABC 事件 流 和 交通 
在 查询 序列 长 度 和 事件 窗口 


一 组 查询 上 ，LinkedCEP 的 


优 于 其 余 


i 
A [sa] 


交通 事件 流 的 查询 


种 方法 。 例 如 ， 对 
来 说 ，LinkedCEP 花费 的 时 间 为 220ms， 而 SASE、 
花费 的 时 间 分 别 为 385ms 和 290ms。 同 样 在 图 7 中 
LinkedCEP 的 匹配 效率 


下 


于 图 


配 上 ， 


6 中 0; 查询 组 


有 件 流 


匹配 效率 都 要 


的 


SASE 和 Siddhi， 例 如 对 于 22: 查询 组 的 匹配 结果 来 说 ， 


LinkedCEP 花费 的 有 
间 分 别 为 240ms 和 1 


500 


60ms。 


400 


SASE 
Siddhi 
-LinkedCEP 


内 

S 

So 
1 


Running time/ms 
5 
2 
至 


区 | 


6 在 ABC 数据 集 


Q2 Q3 


CEP queries 


Q4 


Q5 


上 处 理 5 组 查询 的 性 能 对 比 


对 间 为 130ms， 而 SASE、Siddhi 花费 的 时 


Fig.6 Performance comparison of processing $5 groups of queries on 


the ABC data set 
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图 


Q4 


上 处 理 5 组 查询 


Q5 


7 尾 


E 交 庆 


的 性 能 对 比 


Fig.7 Performance comparison of processing $5 groups of queries on 


the traffic data set 


实验 二 : 测试 在 不 同时 间 窗 口 
一 中 的 查询 组 , 更 改 查 询 的 时 间 窗 
300s， 对 应 的 值 为 该 组 查询 的 平均 


下 的 匹配 性 能 。 


使 月 


Cg 


日 查询 


为 50s、100s、150s、200s、 
匹配 时 间 。 


Fig.8 Experimental comparison of the effect ofthe size of the time 


名 


9 


window constraint on the performance on the ABC data set 
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Time Window/s 


在 交通 数据 集 上 时 间 窗 


约束 的 大 小 对 性 能 影 


响 的 实验 对 比 


Fig. 9 Experimental comparison of the effect ofthe size of the time 


所 
a 


山 


说 明 方法 
据 集 分 别 生 成 了 五 组 查询 ， 其 中 每 组 查询 中 的 
为 50、100、150、200、250， 每 个 查询 的 时 间 窗 口 


别 


window constraint on the performance on the traffic data set 


实验 三 : 


测试 在 处 理 不 


同 的 查询 规模 时 的 事件 吞 
件 吞 吐 量 指 的 是 方法 每 秒 处 理 的 事件 个 数 ， 
的 计算 效率 越 高 。 实 验 中 为 


吞吐 量 


都 


50s。 实 验 对 SASE、Siddhi、CoverMatch 以 及 LinkedCEP 分 
展开 了 测试 。 
SASE 
| Siddhi 
RR CoverMatch 
25000 苞 国 LinkedCFEP 
所 20000 
号 
3 150001 
总 
己 
100001 
| 
0 | 
50 100 150 200 250 
Queries Size 
图 10 在 ABC 数据 集 上 查询 规模 对 吞吐 量 影响 的 实验 对 比 


总 对于 
型 


Fig. 10 Experimental comparison of the i 


上 县 
里 . 
~ 


杂 


下 


throughput on the ABC dataset 


mpact of query size on 


如 图 10 与 11 所 示 ， 在 两 个 数据 集 上 ，LinkedCEP 的 知 
比 SASE 和 Siddhi 更 大 ， 而 CoverMatch 由 于 只 


出 中 


人 


实例 覆盖 , LinkedCEP 是 在 CoverMatch 的 基 
0 结果 联结 得 到 全 部 的 


匹配 
础 上 进 


匹配 结果 ， 所 以 CoverMatch 的 


202205.00048v1 


加 
国 


chinaXiv 


会 存在 更 多 的 匹配 结果 ， 而 交通 数据 集中 匹配 结果 较 少 ， 致 


Fig. 11 


近 。 


减少 ， 


使 临时 匹配 由 于 无 法 产生 最 终 匹 配 而 在 系统 中 一 直 停 留 ， 直 
到 起 始 时 间 戳 超出 当前 时 间 窗 口 范围 才 被 淘汰 ， 由 此 导致 知 
吐 量 降 低 
SASE 
10000 Siddhi 
RN CoverMatch 
S000 区 加 LinkedCFP 
呈 
品 6000 
如 
三 40001 
2000 ] 看 
0 
50 00 150 200 250 
Queries Size 
图 11 在 交通 数据 集 上 查询 规模 对 吞吐 量 影响 的 实验 对 比 


Experimental comparison of the impact of query size on 
throughput on the traffic dataset 

在 图 11 中 , 由 于 交通 数据 集中 复杂 事件 实例 匹配 数量 的 

CoverMatch 方法 和 LinkedCEP 方法 的 吞吐 量 大 小 接 

在 ABC 数据 集中 ，CoverMatch 和 LinkedCEP 方法 的 知 


吐 量 在 五 种 查询 


疯 模 的 情况 下 都 在 SASE 和 Siddhi 之 上 ， 
在 交通 数据 集 上 提升 更 显著 ， 这 说 明了 当 数 据 流 中 出 现 


比 


限 状 态 
询 序列 长 度 较 多 还 是 


类 型 相同 的 事件 相 邻 的 情况 时 ， 本 文 提 出 的 方法 
加 显著 。 


性 能 提升 更 


上 述 实验 表明 ， 本 文 提 出 的 方法 能 够 有 效 地 提升 基于 有 
动机 的 复杂 事件 处 理 匹配 效率 ， 无 论 是 在 查 


查询 时 间 窗 口 较 大 的 情况 下 都 能 够 通过 


寺 
水 
ey 


减少 见 余 计算 来 获得 效能 的 提升 。 


5 


结束 语 
本 文 研 究 了 基于 有 限 状 态 自动 机 的 复杂 事件 匹配 优化 问 


题 。 为 了 解决 匹配 过 程 中 出 现 大 量 临时 匹配 所 造 ln 


种 基 


LH 


配 的 问题 ， 提 出 了 复杂 事件 实例 覆盖 的 概念 。 同 时 设计 了 


高 效 匹配 的 方法 ， 
的 元 余 计 算 。 实 验 结果 表明 了 利 
技术 所 进行 的 匹配 能 够 有 交 


和- 将 主要 围绕 多 个 复杂 事件 2 
在 多 个 查询 上 ， 设 计 一 种 算法 来 利用 本 文 提 出 的 临时 匹配 链 
式 分 区 存储 结构 来 共享 复杂 事件 实例 覆盖 链 ， 并 探索 并 设计 


备 时 匹配 的 链 式 分 区 存储 结构 ， 以 及 在 该 结构 上 进行 
来 利用 复杂 事件 实例 覆盖 减少 匹配 过 程 中 
复杂 事件 实例 覆盖 的 匹配 
是 升 复杂 事件 匹配 性 能 。 
复杂 事件 处 理 技术 具有 广阔 的 应 用 空间 ， 未 来 的 研究 工 
间 进 行 查询 优化 来 展开 。 首 先 


型 的 共享 能 力 分 析 并 通过 


种 适用 于 多 查询 进行 结果 共享 的 监测 模型 。 最 后 进行 模 


实验 来 分 析 其 处 理性 能 。 
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